<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>taichino.com &#187; scraping</title>
	<atom:link href="http://taichino.com/tag/scraping/feed" rel="self" type="application/rss+xml" />
	<link>http://taichino.com</link>
	<description>永遠のネバーランド</description>
	<lastBuildDate>Sat, 04 Feb 2012 13:33:04 +0000</lastBuildDate>
	<language>ja</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.2.1</generator>
		<item>
		<title>BeautifulSoupでスクレイピングのまとめ</title>
		<link>http://taichino.com/programming/1531</link>
		<comments>http://taichino.com/programming/1531#comments</comments>
		<pubDate>Wed, 10 Feb 2010 09:12:26 +0000</pubDate>
		<dc:creator>taichino</dc:creator>
				<category><![CDATA[programming]]></category>
		<category><![CDATA[python]]></category>
		<category><![CDATA[beautifulsoup]]></category>
		<category><![CDATA[scraping]]></category>

		<guid isPermaLink="false">http://taichino.com/?p=1531</guid>
		<description><![CDATA[何度かBeautifulSoupについては書いているのですが、未だに使い方が覚えられずにイライラします。仕方が無いのでまとめて置く事にしました。BeautifulSoupはHTMLから情報を取得するだけ無く、HTMLの編集もできますが、ここではスクレイピング用途のみに絞っています。 使用するのは以下のHTMLです。 &#60;html&#62; &#60;body&#62; &#60;div id=&#34;search engine&#34;&#62; &#60;a id=&#34;googls&#34; href=&#34;http://google.com&#34;&#62;one&#60;/a&#62; &#60;a id=&#34;yahoo&#34; href=&#34;http://yahoo.com&#34;&#62;two&#60;/a&#62; &#60;a id=&#34;bing&#34; href=&#34;http://bing.com&#34;&#62;three&#60;/a&#62; &#60;/div&#62; &#160; &#60;div id=&#34;blog&#34;&#62; &#60;a id=&#34;wordpress&#34; href=&#34;http://ja.wordpress.org/&#34;&#62;one&#60;/a&#62; &#60;a id=&#34;movabletype&#34; href=&#34;http://www.sixapart.jp/movabletype/&#34;&#62;two&#60;/a&#62; &#60;a id=&#34;nucleus&#34; href=&#34;http://japan.nucleuscms.org/&#34;&#62;three&#60;/a&#62; &#60;div&#62; &#60;ul&#62; &#60;li&#62;one&#60;/li&#62; &#60;li&#62;two&#60;/li&#62; &#60;li&#62;three&#60;/li&#62; &#60;/ul&#62; &#60;/div&#62; &#60;/div&#62; &#60;/body&#62; &#60;/html&#62; このHTMLを使って色々と情報を取得したのが以下です。覚えるべきはfindAllだけです。注意する必要があるのは、textを指定した場合にタグオブジェクトが取れずに、テキストオブジェクトが取れるので、一旦parentで親のタグ取りましょうという事と、正規表現で条件指定する場合は、re.compileで正規表現オブジェクトを渡すという事位ですか。 #!/usr/bin/python # -*- coding: utf-8 -*- &#160; import re import urllib from BeautifulSoup import BeautifulSoup [...]]]></description>
			<content:encoded><![CDATA[<p>何度かBeautifulSoupについては書いているのですが、未だに使い方が覚えられずにイライラします。仕方が無いのでまとめて置く事にしました。BeautifulSoupはHTMLから情報を取得するだけ無く、HTMLの編集もできますが、ここではスクレイピング用途のみに絞っています。</p>
<p><span id="more-1531"></span></p>
<p>使用するのは以下のHTMLです。</p>

<div class="wp_syntax"><div class="code"><pre class="html4strict" style="font-family:monospace;"><span style="color: #009900;">&lt;<span style="color: #000000; font-weight: bold;">html</span>&gt;</span>
<span style="color: #009900;">&lt;<span style="color: #000000; font-weight: bold;">body</span>&gt;</span>
  <span style="color: #009900;">&lt;<span style="color: #000000; font-weight: bold;">div</span> <span style="color: #000066;">id</span><span style="color: #66cc66;">=</span><span style="color: #ff0000;">&quot;search engine&quot;</span>&gt;</span>
    <span style="color: #009900;">&lt;<span style="color: #000000; font-weight: bold;">a</span> <span style="color: #000066;">id</span><span style="color: #66cc66;">=</span><span style="color: #ff0000;">&quot;googls&quot;</span> <span style="color: #000066;">href</span><span style="color: #66cc66;">=</span><span style="color: #ff0000;">&quot;http://google.com&quot;</span>&gt;</span>one<span style="color: #009900;">&lt;<span style="color: #66cc66;">/</span><span style="color: #000000; font-weight: bold;">a</span>&gt;</span>
    <span style="color: #009900;">&lt;<span style="color: #000000; font-weight: bold;">a</span> <span style="color: #000066;">id</span><span style="color: #66cc66;">=</span><span style="color: #ff0000;">&quot;yahoo&quot;</span> <span style="color: #000066;">href</span><span style="color: #66cc66;">=</span><span style="color: #ff0000;">&quot;http://yahoo.com&quot;</span>&gt;</span>two<span style="color: #009900;">&lt;<span style="color: #66cc66;">/</span><span style="color: #000000; font-weight: bold;">a</span>&gt;</span>
    <span style="color: #009900;">&lt;<span style="color: #000000; font-weight: bold;">a</span> <span style="color: #000066;">id</span><span style="color: #66cc66;">=</span><span style="color: #ff0000;">&quot;bing&quot;</span> <span style="color: #000066;">href</span><span style="color: #66cc66;">=</span><span style="color: #ff0000;">&quot;http://bing.com&quot;</span>&gt;</span>three<span style="color: #009900;">&lt;<span style="color: #66cc66;">/</span><span style="color: #000000; font-weight: bold;">a</span>&gt;</span>
  <span style="color: #009900;">&lt;<span style="color: #66cc66;">/</span><span style="color: #000000; font-weight: bold;">div</span>&gt;</span>
&nbsp;
  <span style="color: #009900;">&lt;<span style="color: #000000; font-weight: bold;">div</span> <span style="color: #000066;">id</span><span style="color: #66cc66;">=</span><span style="color: #ff0000;">&quot;blog&quot;</span>&gt;</span>
    <span style="color: #009900;">&lt;<span style="color: #000000; font-weight: bold;">a</span> <span style="color: #000066;">id</span><span style="color: #66cc66;">=</span><span style="color: #ff0000;">&quot;wordpress&quot;</span> <span style="color: #000066;">href</span><span style="color: #66cc66;">=</span><span style="color: #ff0000;">&quot;http://ja.wordpress.org/&quot;</span>&gt;</span>one<span style="color: #009900;">&lt;<span style="color: #66cc66;">/</span><span style="color: #000000; font-weight: bold;">a</span>&gt;</span>
    <span style="color: #009900;">&lt;<span style="color: #000000; font-weight: bold;">a</span> <span style="color: #000066;">id</span><span style="color: #66cc66;">=</span><span style="color: #ff0000;">&quot;movabletype&quot;</span> <span style="color: #000066;">href</span><span style="color: #66cc66;">=</span><span style="color: #ff0000;">&quot;http://www.sixapart.jp/movabletype/&quot;</span>&gt;</span>two<span style="color: #009900;">&lt;<span style="color: #66cc66;">/</span><span style="color: #000000; font-weight: bold;">a</span>&gt;</span>
    <span style="color: #009900;">&lt;<span style="color: #000000; font-weight: bold;">a</span> <span style="color: #000066;">id</span><span style="color: #66cc66;">=</span><span style="color: #ff0000;">&quot;nucleus&quot;</span> <span style="color: #000066;">href</span><span style="color: #66cc66;">=</span><span style="color: #ff0000;">&quot;http://japan.nucleuscms.org/&quot;</span>&gt;</span>three<span style="color: #009900;">&lt;<span style="color: #66cc66;">/</span><span style="color: #000000; font-weight: bold;">a</span>&gt;</span>
    <span style="color: #009900;">&lt;<span style="color: #000000; font-weight: bold;">div</span>&gt;</span>
      <span style="color: #009900;">&lt;<span style="color: #000000; font-weight: bold;">ul</span>&gt;</span>
        <span style="color: #009900;">&lt;<span style="color: #000000; font-weight: bold;">li</span>&gt;</span>one<span style="color: #009900;">&lt;<span style="color: #66cc66;">/</span><span style="color: #000000; font-weight: bold;">li</span>&gt;</span>
        <span style="color: #009900;">&lt;<span style="color: #000000; font-weight: bold;">li</span>&gt;</span>two<span style="color: #009900;">&lt;<span style="color: #66cc66;">/</span><span style="color: #000000; font-weight: bold;">li</span>&gt;</span>
        <span style="color: #009900;">&lt;<span style="color: #000000; font-weight: bold;">li</span>&gt;</span>three<span style="color: #009900;">&lt;<span style="color: #66cc66;">/</span><span style="color: #000000; font-weight: bold;">li</span>&gt;</span>
      <span style="color: #009900;">&lt;<span style="color: #66cc66;">/</span><span style="color: #000000; font-weight: bold;">ul</span>&gt;</span>
    <span style="color: #009900;">&lt;<span style="color: #66cc66;">/</span><span style="color: #000000; font-weight: bold;">div</span>&gt;</span>
  <span style="color: #009900;">&lt;<span style="color: #66cc66;">/</span><span style="color: #000000; font-weight: bold;">div</span>&gt;</span>
<span style="color: #009900;">&lt;<span style="color: #66cc66;">/</span><span style="color: #000000; font-weight: bold;">body</span>&gt;</span>
<span style="color: #009900;">&lt;<span style="color: #66cc66;">/</span><span style="color: #000000; font-weight: bold;">html</span>&gt;</span></pre></div></div>

<p>このHTMLを使って色々と情報を取得したのが以下です。覚えるべきはfindAllだけです。注意する必要があるのは、textを指定した場合にタグオブジェクトが取れずに、テキストオブジェクトが取れるので、一旦parentで親のタグ取りましょうという事と、正規表現で条件指定する場合は、re.compileで正規表現オブジェクトを渡すという事位ですか。</p>

<div class="wp_syntax"><div class="code"><pre class="python" style="font-family:monospace;"><span style="color: #808080; font-style: italic;">#!/usr/bin/python</span>
<span style="color: #808080; font-style: italic;"># -*- coding: utf-8 -*-</span>
&nbsp;
<span style="color: #ff7700;font-weight:bold;">import</span> <span style="color: #dc143c;">re</span>
<span style="color: #ff7700;font-weight:bold;">import</span> <span style="color: #dc143c;">urllib</span>
<span style="color: #ff7700;font-weight:bold;">from</span> BeautifulSoup <span style="color: #ff7700;font-weight:bold;">import</span> BeautifulSoup
&nbsp;
html = <span style="color: #483d8b;">''</span><span style="color: #483d8b;">'
上記HTML。ここに書くと表示が乱れるので分けました。
'</span><span style="color: #483d8b;">''</span>
&nbsp;
<span style="color: #ff7700;font-weight:bold;">def</span> main<span style="color: black;">&#40;</span><span style="color: black;">&#41;</span>:
  soup = BeautifulSoup<span style="color: black;">&#40;</span>html<span style="color: black;">&#41;</span>
&nbsp;
  <span style="color: #808080; font-style: italic;"># 基本はfindかfindAllでタグ名指定で要素を取得</span>
  links = soup.<span style="color: black;">findAll</span><span style="color: black;">&#40;</span><span style="color: #483d8b;">'a'</span><span style="color: black;">&#41;</span>         
  <span style="color: #ff7700;font-weight:bold;">for</span> link <span style="color: #ff7700;font-weight:bold;">in</span> links:
    <span style="color: #ff7700;font-weight:bold;">print</span> link.<span style="color: black;">name</span>                 <span style="color: #808080; font-style: italic;"># タグ名</span>
    <span style="color: #ff7700;font-weight:bold;">print</span> link.<span style="color: #dc143c;">string</span>               <span style="color: #808080; font-style: italic;"># タグの中のテキスト</span>
    <span style="color: #ff7700;font-weight:bold;">print</span> <span style="color: #008000;">dict</span><span style="color: black;">&#40;</span>link.<span style="color: black;">attrs</span><span style="color: black;">&#41;</span><span style="color: black;">&#91;</span><span style="color: #483d8b;">'href'</span><span style="color: black;">&#93;</span>  <span style="color: #808080; font-style: italic;"># attrsはタプルのリストなので辞書経由でアクセスが便利</span>
&nbsp;
  blogdiv = soup.<span style="color: black;">find</span><span style="color: black;">&#40;</span><span style="color: #483d8b;">'div'</span>, attrs=<span style="color: black;">&#123;</span><span style="color: #483d8b;">'id'</span>:<span style="color: #483d8b;">'blog'</span><span style="color: black;">&#125;</span><span style="color: black;">&#41;</span>  <span style="color: #808080; font-style: italic;"># タグ名に加えてattrsで属性条件を入れる</span>
  bloglinks = blogdiv.<span style="color: black;">findAll</span><span style="color: black;">&#40;</span><span style="color: #483d8b;">'a'</span><span style="color: black;">&#41;</span>                 <span style="color: #808080; font-style: italic;"># 要素に対してもfind/findAll可能。子要素からの検索になる</span>
  <span style="color: #ff7700;font-weight:bold;">for</span> link <span style="color: #ff7700;font-weight:bold;">in</span> bloglinks:
    <span style="color: #ff7700;font-weight:bold;">print</span> link  <span style="color: #808080; font-style: italic;"># 要素をそのまま出力すると、その部分のHTMLになる</span>
&nbsp;
  <span style="color: #808080; font-style: italic;"># タグ内のテキストで検索</span>
  firstlinks = soup.<span style="color: black;">findAll</span><span style="color: black;">&#40;</span>text=<span style="color: #483d8b;">&quot;one&quot;</span><span style="color: black;">&#41;</span>            
  <span style="color: #ff7700;font-weight:bold;">for</span> link <span style="color: #ff7700;font-weight:bold;">in</span> firstlinks:
    <span style="color: #ff7700;font-weight:bold;">print</span> link.<span style="color: black;">parent</span>  <span style="color: #808080; font-style: italic;"># テキストで検索した場合はテキストオブジェクトが取れる。タグにアクセスしたい場合はparent経由</span>
&nbsp;
  <span style="color: #808080; font-style: italic;"># findAllのタグ条件はリストで複数指定可能</span>
  li_or_a = soup.<span style="color: black;">findAll</span><span style="color: black;">&#40;</span><span style="color: black;">&#91;</span><span style="color: #483d8b;">'a'</span>, <span style="color: #483d8b;">'li'</span><span style="color: black;">&#93;</span><span style="color: black;">&#41;</span>              
  <span style="color: #ff7700;font-weight:bold;">for</span> tag <span style="color: #ff7700;font-weight:bold;">in</span> li_or_a:
    <span style="color: #ff7700;font-weight:bold;">print</span> tag
&nbsp;
  <span style="color: #808080; font-style: italic;"># テキスト検索も複数指定可能</span>
  one_or_two = soup.<span style="color: black;">findAll</span><span style="color: black;">&#40;</span>text=<span style="color: black;">&#91;</span><span style="color: #483d8b;">'one'</span>, <span style="color: #483d8b;">'two'</span><span style="color: black;">&#93;</span><span style="color: black;">&#41;</span>   
  <span style="color: #ff7700;font-weight:bold;">for</span> tag <span style="color: #ff7700;font-weight:bold;">in</span> one_or_two:
    <span style="color: #ff7700;font-weight:bold;">print</span> tag
&nbsp;
  <span style="color: #808080; font-style: italic;"># recursiveを無効にすれば、自身の子要素からのみ検索できる</span>
  only_children = soup.<span style="color: black;">find</span><span style="color: black;">&#40;</span><span style="color: #483d8b;">'body'</span><span style="color: black;">&#41;</span>.<span style="color: black;">findAll</span><span style="color: black;">&#40;</span><span style="color: #483d8b;">'div'</span>, recursive=<span style="color: #008000;">False</span><span style="color: black;">&#41;</span>
  <span style="color: #ff7700;font-weight:bold;">for</span> div <span style="color: #ff7700;font-weight:bold;">in</span> only_children:
    <span style="color: #ff7700;font-weight:bold;">print</span> div
&nbsp;
  <span style="color: #808080; font-style: italic;"># 各属性の条件指定には正規表現オブジェクトを指定できる</span>
  dot_com_links = soup.<span style="color: black;">findAll</span><span style="color: black;">&#40;</span><span style="color: #483d8b;">'a'</span>, attrs=<span style="color: black;">&#123;</span><span style="color: #483d8b;">'href'</span>:<span style="color: #dc143c;">re</span>.<span style="color: #008000;">compile</span><span style="color: black;">&#40;</span>r<span style="color: #483d8b;">'.*?<span style="color: #000099; font-weight: bold;">\.</span>com'</span><span style="color: black;">&#41;</span><span style="color: black;">&#125;</span><span style="color: black;">&#41;</span>
  <span style="color: #ff7700;font-weight:bold;">for</span> link <span style="color: #ff7700;font-weight:bold;">in</span> dot_com_links:
    <span style="color: #ff7700;font-weight:bold;">print</span> <span style="color: #008000;">dict</span><span style="color: black;">&#40;</span>link.<span style="color: black;">attrs</span><span style="color: black;">&#41;</span><span style="color: black;">&#91;</span><span style="color: #483d8b;">'href'</span><span style="color: black;">&#93;</span>
&nbsp;
  <span style="color: #808080; font-style: italic;"># タグ名とテキスト内容を同時に指定しても、タグは取れない</span>
  firstlinks = soup.<span style="color: black;">findAll</span><span style="color: black;">&#40;</span><span style="color: #483d8b;">'a'</span>, text=<span style="color: #483d8b;">&quot;one&quot;</span><span style="color: black;">&#41;</span>
  <span style="color: #ff7700;font-weight:bold;">for</span> link <span style="color: #ff7700;font-weight:bold;">in</span> firstlinks:
    <span style="color: #ff7700;font-weight:bold;">print</span> link.<span style="color: black;">parent</span>  <span style="color: #808080; font-style: italic;"># やっぱりparentを経由する必要がある</span>
&nbsp;
&nbsp;
<span style="color: #ff7700;font-weight:bold;">if</span> __name__ == <span style="color: #483d8b;">'__main__'</span>: main<span style="color: black;">&#40;</span><span style="color: black;">&#41;</span></pre></div></div>

<p>書いてみると何故こんな事が覚えられないのか謎ですが、とにかくこれでBeautifulSoupは使えるようになりましたね。あと以前にも書きましたが、現状のBeautifulSoupだと解析できないHTMLが存在します。その場合は僕は<a href="http://taichino.com/programming/1040">こうしてます</a>が、もっと上手い方法あったら教えて下さい。</p>
<p>一応これでスクレイピングは出来る気がしますが、Web::Scraperと違い、必要な情報を構造化して取得する事ができないのが面倒ですね。ラッパー書きたいなぁと思いながら中々重い腰が上げられません。</p>
]]></content:encoded>
			<wfw:commentRss>http://taichino.com/programming/1531/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>

